上下文记忆力媲美Genie3,且问世更早:港大和可灵提出场景一致的交互式视频世界模型
上下文记忆力媲美Genie3,且问世更早:港大和可灵提出场景一致的交互式视频世界模型要让视频生成模型真正成为模拟真实物理世界的「世界模型」,必须具备长时间生成并保留场景记忆的能力。然而,交互式长视频生成一直面临一个致命短板:缺乏稳定的场景记忆。镜头稍作移动再转回,眼前景物就可能「换了个世界」。
来自主题: AI技术研报
8981 点击 2025-08-21 11:25
搜索
要让视频生成模型真正成为模拟真实物理世界的「世界模型」,必须具备长时间生成并保留场景记忆的能力。然而,交互式长视频生成一直面临一个致命短板:缺乏稳定的场景记忆。镜头稍作移动再转回,眼前景物就可能「换了个世界」。